메뉴

#소규모 언어 모델(SLM)

MP
MarkTechPost 24일 전
IMP 8

자이프라, AMD 하드웨어 학습 MoE 'ZAYA1-8B' 공개

자이프라(Zyphra)는 활성 파라미터 7억 6천만 개(760M)만 사용하는 경량 추론 MoE(Mixture of Experts) 모델인 ZAYA1-8B를 공개했습니다. 이 모델은 새로운 마르코프 RSA 테스트 타임 컴퓨팅 기법을 적용하여 수학 및 코딩 벤치마크에서 자신보다 훨씬 거대한 모델들을 뛰어넘는 성능을 입증했습니다. 엔드투엔드 AMD 인스팅트 MI300 하드웨어로 학습되었으며 아파치 2.0(Apache 2.0) 라이선스로 배포되어, 소규모 언어 모델 분야의 지능 밀도(Intelligence density) 새로운 기준을 제시했습니다.

소규모 언어 모델(SLM) MoE (Mixture of Experts) AMD AI 하드웨어